查看原文
其他

爆料:亦庄某数据中心故障致多家金融机构设备宕机,服务全部中断。

2016-07-25 云头条

2016年4月22日11时28分,某公司北京亦庄数据中心供电中断,造成某村镇银行和多家金融机构托管在该机房的所有设备宕机,服务全部中断。


422日(周五),某公司(数据中心服务商,在该文内简称“某公司”)对租用的(XXXXX,另外一家数据中心服务商,在该文内简称为“XXXXX”)亦庄数据中心的4台老旧UPS升级,先将4号和3号旧UPS换新、由2号和1号旧UPS为机房供电,而后再更新2号和1UPS,再此期间使用三台柴油发电机并机运行为UPS供电。升级过程中,两台旧UPS因负载过高(达到容量的90%),运行50分钟后切换至旁路,发电机不通过UPS直接对IT设备供电。12分钟后三台发电机接连出现“失磁”报警,陆续停止运行,导致机房全部设备断电,系统宕机,73家村镇银行的核心、银行卡、柜面、支付、网银、手机银行等业务全部中断,涉及全国12个省份,并造成部分服务器损坏,银行业务最长恢复时间达到7小时32分钟,同时还导致部分银行业金融机构的开发测试系统、灾备系统、生产业务系统不同时间中断。

 

暴露的问题

 

事件发生后,相关银行组织成立工作组,赴现场开展调查,事件主要原因及存在的问题如下:


升级时使用2台老旧的UPS为机房设备供电,UPS过载造成机房IT设备失去供电保护。升级前,某公司未进行由2台旧UPS 为机房供电的带载能力测试,未采取提前关闭部分设备、降低供电负载的常用风险规避措施。升级时,由2台老旧UPS为机房所有IT 设备供电,UPS高负载运行一段时间后温度过高,跳转至旁路运行,造成机房IT设备失去供电保护,进而引发发电机直接供电、出现失磁、停止运行、导致机房电力中断。

 

对生产系统高风险作业应急准备不足。升级方案对风险估计不足,缺乏场景设计,应急预案基本缺失。

 

高风险作业时间安排不当。某公司将UPS升级、供电线路割接的高风险操作安排日白天进行,为主要业务时段,UPS跳转旁路、发电机“失磁”告警停机、机房供电中断,造成相关银行业务全面中断、设备损坏。


事前未向银行明确提示风险,银行准备不足,业务长时间不能恢复。某公司未告知相关银行具体的升级方案和操作时点,及银行需提前做出的应急准备,在事前的通知邮件中告知银行“施工期间不会对贵司的用电造成影响”,因而未进行系统、数据应急准备,导致事发后银行业务长时间不能恢复。

 

分包机房主要运维服务。某公司将某村镇银行生产机房的基础设施管理等主要服务内容,分包给了(XXXXX),不符合《银行业金融机构信息科技外包风险监管指引》第三十七条“不得将外包服务的主要业务分包”的风控原则。

 

机房供电系统存在单点故障风险,未达到国家A级机房标准。该机房UPS电力输出实际为单路,存在严重缺陷。


监管要求

 

此次事件暴露出部分外包商风险意识缺失,技术能力和管理水平不足,与银行业信息科技风险管理标准存在较大差距等突出问题,同时也反映出银行业金融机构在信息科技外包管理方面还存在 51 29186 51 14985 0 0 4871 0 0:00:05 0:00:03 0:00:02 4870诸多风险隐患。为加强信息科技外包风险防控,银行业金融机构要切实强化责任意识、主体管理意识,改变对外包服务的粗放式管理,强化制度标准建设,加强监督检查。


最近另外一家国际知名数据中心服务商Equinix也遭遇了:UPS出故障,Equinix伦敦数据中心罢工(点击可阅读)。


据艾默生网络能源公司和波耐蒙研究所开展的调查声称,多年来,UPS故障一向是最常被提及的数据中心停运根源。据今年早些时候发布的最新调查报告声称,去年,所有停运事件中25%是由UPS和UPS电池故障引起的,这比2013年的24%有所增加,不过比2010年的29%有所下降。


据消息:该公司已被银监会拉入黑名单。如果事实如此,损失可不小,其他家高等级数据中心供应商可以捡到一些儿便宜~


你猜猜这家公司是谁?这里就不方便说了...


相关阅读:

2016年全球IT外包百强排行榜

中国银行业信息科技“十三五”发展规划监管指导意见(征求意见稿)

银监会:2020年六成银行信息系统迁至云平台

银行业“IT民工”迎来春天

浪潮、宇信“0”元中标甘肃银行股份有限公司智慧银行建设项目

德银与惠普签署巨额IT合同

德意志银行称,3年后,金融行业近三分之一的工作负载或进入云端

银行买不起防火墙 用二手交换机 被黑客轻松偷走8000万美元

云头条|论金融云~~

银行老旧IT系统不堪重负

摩根大通考虑将交易系统迁移到云计算服务上


云头条|未经授权谢绝转载(此篇文章转载有风险)


欢迎加入交流,群主微信:aclood


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存